مایکل جردن در پست وبلاگ معروف خود با عنوان هوش مصنوعی - انقلاب هنوز رخ نداده است، داستانی را تعریف میکند که چگونه نزدیک بود دختر متولد نشدهاش را به دلیل یک پیشبینی اشتباه هوش مصنوعی از دست بدهد. او حدس میزند که هر سال کودکان زیادی به همین ترتیب بیجهت میمیرند. با صرفنظر از جزئیات خاص پرونده او، این نمونهای از کاربردی است که در آن عملکرد یک الگوریتم هوش مصنوعی روی کاغذ در طول توسعهاش خوب به نظر میرسید، اما پس از استقرار، منجر به تصمیمات بدی شد.
در مقاله خود با عنوان یادگیری عمیق بیزی در عصر هوش مصنوعی در مقیاس بزرگ مورد نیاز است، ما استدلال میکنیم که مورد فوق استثنا نیست، بلکه یک قاعده و نتیجه مستقیم تمرکز جامعه تحقیقاتی بر دقت پیشبینی به عنوان یک معیار واحد مورد علاقه است.
مقاله موضعی ما از این مشاهده متولد شد که سمپوزیوم پیشرفتهای استنباط بیزی تقریبی، با وجود ارتباط فوری آن با این پرسشها، در طول سالها محققان جوان کمتری را به خود جذب کرده است. در همان زمان، بسیاری از دانشآموزان و همکاران جوانتر ما از مشکلات اساسی با شیوههای فعلی در تحقیقات یادگیری ماشین آگاه نبودند—به ویژه وقتی صحبت از تلاشهای در مقیاس بزرگ مانند کار روی مدلهای بنیادین به میان میآید، که امروزه بیشتر توجهها را به خود جلب میکنند اما از نظر ایمنی، قابلیت اطمینان و استحکام کوتاهی میکنند.
ما با محققان دیگر در زمینه یادگیری عمیق بیزی تماس گرفتیم و در نهایت گروهی از محققان از 29 مؤسسه مشهور در سراسر جهان را گرد هم آوردیم که در دانشگاهها، آزمایشگاههای دولتی و صنعت کار میکردند. ما با هم این مقاله را نوشتیم تا استدلال کنیم که یادگیری عمیق بیزی راهحلهای امیدوارکنندهای برای مشکلات اصلی در یادگیری ماشین ارائه میدهد و آماده کاربرد فراتر از آزمایشهای آکادمیک است. به ویژه، ما اشاره میکنیم که معیارهای بسیاری فراتر از دقت وجود دارد، مانند کالیبراسیون عدم قطعیت، که باید برای اطمینان از اینکه مدلهای بهتر نیز به نتایج بهتری در برنامههای کاربردی پاییندستی منجر میشوند، در نظر بگیریم.
در این تفسیر، من به اهمیت تصمیمات به عنوان هدفی برای سیستمهای یادگیری ماشین، در مقابل معیارهای منفرد، گسترش خواهم داد. علاوه بر این، من استدلال خواهم کرد که چرا یادگیری عمیق بیزی میتواند این خواستهها را برآورده کند و به طور خلاصه پیشرفتهای اخیر در این زمینه را بررسی خواهم کرد. در نهایت، من چشماندازی برای آینده این حوزه تحقیقاتی ارائه خواهم داد و توصیههایی در مورد اینکه چگونه میتوانید همین امروز از قدرت راهحلهای یادگیری عمیق بیزی در تحقیق یا عمل خود استفاده کنید، ارائه خواهم داد.
یادگیری ماشین برای تصمیمات
اگر هر مقاله تحقیقاتی یادگیری ماشینی را که در یکی از کنفرانسهای بزرگ ارائه شده است باز کنید، به احتمال زیاد یک جدول بزرگ با اعداد زیادی پیدا خواهید کرد. این اعداد معمولاً نشاندهنده دقت پیشبینی روشهای مختلف بر روی مجموعهدادههای مختلف هستند، و خط مربوط به روش پیشنهادی نویسندگان احتمالاً اعداد برجسته زیادی دارد، که نشان میدهد بالاتر از اعداد روشهای دیگر هستند.
بر اساس این مشاهده، ممکن است کسی باور کند که اعداد برجسته در جداول تنها چیزی است که در جهان اهمیت دارد. با این حال، من قاطعانه استدلال میکنم که اینطور نیست. آنچه در دنیای واقعی اهمیت دارد تصمیمات هستند—یا به طور دقیقتر، تصمیمات و فایدههای مرتبط با آنها.
یک مثال انگیزشی
تصور کنید که بیش از حد خوابیدهاید و اکنون در معرض خطر دیر رسیدن به محل کار هستید. علاوه بر این، یک سایت ساخت و ساز جدید در مسیر معمول شما به محل کار وجود دارد، و امروز نیز یک رژه در شهر در حال برگزاری است. این امر پیشبینی وضعیت ترافیک را بسیار دشوار میکند. ساعت 08:30 صبح است و شما باید تا ساعت 09:00 در محل کار باشید. سه مسیر مختلف وجود دارد که میتوانید انتخاب کنید: از طریق شهر، از طریق بزرگراه، یا از طریق جنگل. چگونه انتخاب میکنید؟
خوشبختانه، برخی از محققان باهوش هوش مصنوعی ابزارهایی را ساختهاند که میتوانند زمان مورد نیاز برای هر مسیر را پیشبینی کنند. دو ابزار برای انتخاب وجود دارد، ابزار A و ابزار B، و این پیشبینیهای آنها است:
| شهر | بزرگراه | جنگل | |
| ابزار A | 35 دقیقه | 25 دقیقه | 43 دقیقه |
| ابزار B | 28 دقیقه | 32 دقیقه | 35 دقیقه |
به طور آزاردهندهای، ابزار A پیشنهاد میکند که باید از بزرگراهها استفاده کنید، اما ابزار B شهر را پیشنهاد میکند. با این حال، به عنوان یک کاربر متخصص فناوری، شما در واقع میدانید که B از یک الگوریتم جدیدتر استفاده میکند، و شما مقاله را خواندهاید و از اعداد برجسته آن شگفتزده شدهاید. شما میدانید که B یک خطای میانگین مربعات (MSE) پایینتر، یک معیار رایج برای عملکرد پیشبینی در وظایف رگرسیون، به دست میدهد.
با اطمینان، شما تصمیم میگیرید به ابزار B اعتماد کنید و بنابراین مسیری را از طریق شهر انتخاب میکنید—فقط برای اینکه در ساعت 09:02 برسید و به دلیل دیر رسیدن، یک نگاه ناراحت از رئیس خود دریافت کنید.
اما چگونه این اتفاق افتاد؟ شما بهترین ابزار را انتخاب کردید، پس از همه! بیایید به زمانهای سفر واقعی نگاه کنیم:
| شهر | بزرگراه | جنگل | |
| زمان رانندگی واقعی | 32 دقیقه | 25 دقیقه | 35 دقیقه |
همانطور که میبینیم، بزرگراه در واقع سریعترین بود و در واقع، تنها مسیری بود که شما را به موقع به محل کار میرساند. اما چگونه این امکان وجود دارد؟ این موضوع زمانی روشن میشود که MSE را در این زمانها برای دو الگوریتم پیشبینی محاسبه کنیم:
MSE(A) = [ (35-32)² + (25-25)² + (43-35)²] / 3 = 24.3
MSE(B) = [ (28-32)² + (32-25)² + (35-35)²] / 3 = 21.7
در واقع، میبینیم که ابزار B MSE بهتری دارد، همانطور که در مقاله تبلیغ شده است. اما این الان به شما کمکی نکرد، اینطور بود؟ آنچه در نهایت برای شما اهمیت داشت، داشتن دقیقترین پیشبینیها در مورد تمام مسیرهای ممکن نبود، بلکه بهترین تصمیم در مورد انتخاب کدام مسیر بود، یعنی تصمیمی که شما را به موقع به محل کار میرساند.
در حالی که ابزار A پیشبینیهای بدتری به طور متوسط انجام میدهد، پیشبینیهای آن برای مسیرهایی با زمان سفر کوتاهتر بهتر است و هر چه مسیر طولانیتر باشد، بدتر میشود. همچنین هرگز زمان سفر را دست کم نمیگیرد.
برای اینکه به موقع به محل کار برسید، شما به پیشبینیهای کندترین مسیرها اهمیتی نمیدهید، فقط به سریعترین آنها اهمیت میدهید. شما همچنین میخواهید این اطمینان را داشته باشید که به موقع میرسید و مسیری را انتخاب نمیکنید که در واقع طولانیتر شود. بنابراین، در حالی که ابزار A MSE بدتری دارد، در واقع منجر به تصمیمات بهتری میشود.
تخمین عدم قطعیت به کمک میآید
البته، اگر میدانستید که پیشبینی میتواند اینقدر اشتباه باشد، شاید هرگز در وهله اول به آن اعتماد نمیکردید، درست است؟ بیایید یک ویژگی مفید دیگر به پیشبینیها اضافه کنیم: تخمین عدم قطعیت.
در اینجا دو الگوریتم اصلی و یک الگوریتم سوم جدید (ابزار C) وجود دارد که عدم قطعیتهای پیشبینی خود را تخمین میزند:
| شهر | بزرگراه | جنگل | |
| ابزار A | 35 دقیقه | 25 دقیقه | 43 دقیقه |
| ابزار B | 28 دقیقه | 32 دقیقه | 35 دقیقه |
| ابزار C | 25 +/- 8 دقیقه | 27 +/- 2 دقیقه | 37 +/- 4 دقیقه |
رتبهبندی بر اساس میانگین پیشبینیهای ابزار C با ابزار B موافق است. با این حال، اکنون میتوانید ارزیابی کنید که چه مقدار خطر دیر رسیدن به محل کار وجود دارد. فایده واقعی شما این نیست که در کوتاهترین زمان ممکن در محل کار باشید، بلکه این است که به موقع در محل کار باشید، یعنی حداکثر در 30 دقیقه.
به گفته ابزار C، رانندگی از طریق شهر میتواند بین 17 تا 32 دقیقه طول بکشد، بنابراین در حالی که به نظر میرسد به طور متوسط سریعترین است، این احتمال وجود دارد که دیر برسید. در مقابل، بزرگراه میتواند بین 25 تا 29 دقیقه طول بکشد، بنابراین در هر صورت به موقع خواهید رسید. با داشتن این تخمینهای عدم قطعیت، شما انتخاب درستی برای انتخاب بزرگراه خواهید کرد.
این تنها یک مثال از سناریویی بود که در آن با تصمیماتی روبرو هستیم که فایده آنها با دقت پیشبینی خام یک الگوریتم ارتباطی ندارد، و تخمین عدم قطعیت برای تصمیمگیری بهتر بسیار مهم است.
استدلال برای یادگیری عمیق بیزی
یادگیری عمیق بیزی از اصول آماری اساسی استنباط بیزی استفاده میکند تا سیستمهای یادگیری عمیق را با توانایی انجام پیشبینیهای احتمالی مجهز کند. از این پیشبینیها سپس میتوان برای به دست آوردن فاصلههای عدم قطعیت به شکلی که در مثال قبلی نشان داده شد (که یک بیزی آن را "فاصلههای معتبر" مینامد) استفاده کرد.
فاصلههای عدم قطعیت میتوانند شامل عدم قطعیت تصادفی، یعنی عدم قطعیت ذاتی در تصادفی بودن جهان (به عنوان مثال، اینکه آیا همسایه شما تصمیم گرفته است همزمان با شما پارکینگ را ترک کند)، و عدم قطعیت معرفتی، مربوط به کمبود دانش ما (به عنوان مثال، ما ممکن است ندانیم رژه با چه سرعتی حرکت میکند) باشد.
نکته مهم این است که با اعمال قضیه بیز، میتوانیم دانش قبلی را در پیشبینیها و تخمینهای عدم قطعیت مدل یادگیری عمیق بیزی خود بگنجانیم. به عنوان مثال، میتوانیم از درک خود از نحوه جریان ترافیک در اطراف یک سایت ساخت و ساز برای تخمین تاخیرهای احتمالی استفاده کنیم.
آماردانان فراوانیگرا اغلب از این جنبه استنباط بیزی به عنوان "ذهنی" انتقاد میکنند و از رویکردهای "بدون توزیع"، مانند پیشبینی انطباقی، حمایت میکنند، که به شما ضمانتهای اثباتپذیری برای پوشش فاصلههای پیشبینی میدهد. با این حال، این ضمانتها فقط به طور یکنواخت در تمام پیشبینیها (در مثال ما، در تمام مسیرها)، اما نه لزوماً در هر مورد خاص، معتبر هستند.
همانطور که در مثال خود دیدهایم، ما آنقدر به دقت (و به طور گسترده، تخمینهای عدم قطعیت) در مسیرهای کندتر اهمیت نمیدهیم. تا زمانی که پیشبینیها و تخمینهای عدم قطعیت برای مسیرهای سریع دقیق باشند، یک ابزار هدف خود را برآورده میکند. روشهای انطباقی نمیتوانند چنین ضمانت پوشش حاشیهای را برای هر مسیر ارائه دهند، که کاربرد آنها را در بسیاری از سناریوها محدود میکند.
شبکههای عصبی بیزی—پیادهسازی، آموزش، استنباط با چارچوب JAX"اما یادگیری عمیق بیزی کار نمیکند"
اگر شما فقط به طور سطحی از زمینه یادگیری عمیق بیزی چند سال پیش پیروی کردهاید و سپس توجه خود را متوقف کردهاید، که با تمام هیاهوی پیرامون LLMها و هوش مصنوعی مولد پرت شدهاید، در این باور که اصول ظریف و انگیزه قوی دارد، اما در واقع در عمل کار نمیکند، معذور خواهید بود. در واقع، این واقعاً تا همین اواخر درست بود.
با این حال، در چند سال گذشته، این زمینه شاهد پیشرفتهای بسیاری بوده است که به این چارچوب اجازه میدهد تا در نهایت به وعدههای خود عمل کند. به عنوان مثال، انجام استنباط بیزی بر روی توزیعهای پسین بیش از میلیونها پارامتر شبکه عصبی از نظر محاسباتی غیرممکن بود، اما اکنون ما روشهای تقریبی مقیاسپذیر داریم که تنها اندکی پرهزینهتر از آموزش استاندارد شبکه عصبی هستند.
علاوه بر این، انتخاب کلاس مدل مناسب برای یک مسئله معین دشوار بود، اما ما به لطف پیشرفتها در انتخاب مدل بیزی، پیشرفتهای زیادی در خودکارسازی این تصمیم از کاربر داشتهایم.
در حالی که طراحی یک توزیع قبلی معنادار بر روی پارامترهای شبکه عصبی تقریباً غیرممکن است، ما راههای مختلفی برای تعیین اولویتها مستقیماً بر روی توابع پیدا کردهایم، که برای اکثر متخصصان بسیار شهودیتر است. در نهایت، برخی از معماهای نگرانکننده مربوط به رفتار پسین شبکه عصبی بیزی، مانند اثر پسین سرد بدنام، اکنون بسیار بهتر درک شدهاند.
مدلهای یادگیری عمیق بیزی با استفاده از این ابزارها، شروع به تأثیر مفیدی در بسیاری از زمینهها، از جمله مراقبتهای بهداشتی، رباتیک و علم داشتهاند. به عنوان مثال، ما نشان دادهایم که در زمینه پیشبینی نتایج سلامتی برای بیماران در بخش مراقبتهای ویژه بر اساس دادههای سری زمانی، یک رویکرد یادگیری عمیق بیزی نه تنها میتواند پیشبینیها و تخمینهای عدم قطعیت بهتری ارائه دهد، بلکه منجر به توصیههایی میشود که برای پزشکان قابل تفسیرتر هستند. مقاله موضعی ما شامل گزارشهای مفصلی از این و سایر نمونههای قابل توجه است.
با این حال، متأسفانه استفاده از یادگیری عمیق بیزی هنوز به آسانی یادگیری عمیق استاندارد نیست، که میتوانید این روزها در چند خط کد PyTorch انجام دهید.
اگر میخواهید از یک مدل یادگیری عمیق بیزی استفاده کنید، ابتدا باید به تعیین اولویت فکر کنید. این یک جزء حیاتی از الگوی بیزی است و ممکن است مانند یک کار سخت به نظر برسد، اما اگر واقعاً دانش قبلی در مورد کار مورد نظر داشته باشید، این میتواند واقعاً عملکرد شما را بهبود بخشد.
سپس، شما همچنان باید یک الگوریتم استنباط تقریبی را انتخاب کنید، بسته به اینکه چقدر بودجه محاسباتی مایل به صرف کردن هستید. برخی از الگوریتمها بسیار ارزان هستند (مانند استنباط لاپلاس)، اما اگر واقعاً تخمینهای عدم قطعیت با کیفیت بالا میخواهید، ممکن است مجبور شوید یک الگوریتم گرانتر (به عنوان مثال، زنجیره مارکوف مونت کارلو) را انتخاب کنید.
در نهایت، باید پیادهسازی مناسب آن الگوریتم را پیدا کنید که با مدل شما نیز کار کند. به عنوان مثال، برخی از الگوریتمهای استنباط ممکن است فقط با انواع خاصی از اپراتورهای عادیسازی (به عنوان مثال، لایه نرم در مقابل دستهای نرم) کار کنند یا ممکن است با وزنهای کمدقت کار نکنند.
به عنوان یک جامعه تحقیقاتی، باید اولویت قرار دادن این ابزارها را به گونهای آسانتر برای متخصصان عادی و بدون سابقه در تحقیقات ML قرار دهیم.
ثبت مصنوعات PyMC و Arviz در Neptuneراه پیش رو
این تفسیر در مورد مقاله موضعی ما امیدوارانه شما را متقاعد کرده است که یادگیری ماشین چیزی فراتر از دقت پیشبینی در یک مجموعه آزمایشی است. در واقع، اگر از پیشبینیهای یک مدل هوش مصنوعی برای تصمیمگیری استفاده میکنید، تقریباً در همه شرایط، باید به راههایی برای گنجاندن دانش قبلی خود در مدل و دریافت تخمینهای عدم قطعیت از آن اهمیت دهید. اگر اینطور است، امتحان کردن یادگیری عمیق بیزی احتمالاً ارزشش را دارد.
یک مکان خوب برای شروع آغازگر شبکههای عصبی بیزی است که من همراه با سه همکار نوشتهام. من همچنین یک وظایف طبقه بندی تصویر، به همراه تمام پیادهسازیها و دستورالعملها وجود دارد که به شما امکان میدهد به سرعت متوجه شوید که یک رویکرد قبل از انتخاب بیزی چقدر میتواند در دنیای واقعی سودمند باشد.
با این حال، یک نکته وجود دارد که ما به آن در مقاله خود اشاره نمیکنیم، اما فکر میکنم ارزش ذکر کردن در اینجا را دارد. همانطور که در اوایل این تفسیر گفتم، یک "مکتب فکری" به نام "پیشبینی انطباقی" وجود دارد که به شما ضمانتهای اثباتپذیری برای پوشش فاصلههای پیشبینی میدهد، به شرطی که دادههای آموزش و دادههای آزمایشی شما از یک توزیع ناشی شوند.
این رویکرد نیز عالی است، اما من یک نگرانی عمده دارم: چه اتفاقی میافتد اگر دادههای آموزش و دادههای آزمایشی واقعاً ناشی از توزیعهای یکسانی نباشند؟ متأسفانه، این اتفاق در دنیای واقعی به طور فاجعهباری اغلب رخ میدهد. در این صورت، ضمانتهای پیشبینی انطباقی شما هیچ ارزشی نخواهند داشت. از طرف دیگر، یک الگوریتم یادگیری عمیق بیزی، اگر به خوبی طراحی شده باشد، به شما اجازه میدهد این تغییر در توزیع را در قالب یک دانش قبلی در مدل بگنجانید، که باعث میشود در این سناریو بسیار قویتر باشد.
بیایید به این فکر کنیم که این جنبه چگونه در کار بالینی مهم خواهد بود. بیماران به طور فاجعهباری ناهمگن هستند. بیماران با بیماریهای نادر ممکن است به طور کامل در دادههای آموزشی شما نشان داده نشوند. در این صورت، رویکردهای انطباقی ممکن است در واقع مضر باشند، زیرا به شما یک ضمانت پوشش نادرست برای پیشبینیهای خود برای این بیمار خاص میدهند. یک مدل یادگیری عمیق بیزی در عوض به شما این امکان را میدهد که در دانش قبلی خود در مورد علت احتمالی و مکانیسم بیماری این بیمار خاص بگنجانید.
اگر من از چیزی در این پست وبلاگ موفق به متقاعد کردن شما شدم، این است که باید یادگیری ماشین را به عنوان راهی برای تصمیمگیری بهتر در نظر بگیرید، نه صرفاً به عنوان راهی برای انجام دقیقترین پیشبینیها. با استفاده از این لنز، من معتقدم رویکردهای یادگیری عمیق بیزی این پتانسیل را دارند که تأثیر فوقالعادهای بر کار شما داشته باشند.
من از این فرصت استفاده میکنم و از بسیاری از دانشآموزان دکترا، همکاران و همکارانم تشکر میکنم که با هم کار کردند و ذهن خود را برای نگارش این مقاله در کنار هم قرار دادند. اگرچه ما فقط از 29 مؤسسه مختلف بودیم، یک اشتیاق مشترک ما را گرد هم آورد تا رویکردهای بیزی را به طور گستردهتر در سراسر تحقیقات یادگیری ماشین استفاده کنیم.